Data Balancing with Synthetic Medical Data Generation

نویسندگان

چکیده

Sağlık hizmetleri planlaması, klinik deneyler ve araştırma geliştirme çalışmaları gibi sağlık verisi kullanımını gerektiren alanlarda, kişisel verisinin elde edilmesi kullanımında etik, bürokratik operasyonel zorluklar yaşanmaktadır. Elektronik kayıtlarının güvenliği veri mahremiyeti konularındaki kısıtlamalar başta olmak üzere, saha çalışmalarından edilmesinin maliyetli zaman alıcı olması, gerçek veriye en yakın şekilde yapay üretilmesini gerekli kılmaktadır. Bu çalışmada, son dönemde alanında artan kullanımı ihtiyacı doğrultusunda, sentetik kullanımının önemi ele alınarak, üretiminde kullanılan SMOTE, SMOTEENN, BorderlineSMOTE, SMOTETomek ADASYN yöntemlerinin performanslarının karşılaştırılması amaçlanmıştır. Çalışmada, gözlem sınıf sayısı birbirinden farklı ikisi de kamuya açık, 390 hastaya ait 15 değişkenden oluşan seti ile 19.212 COVID-19 hastasına ilişkin 16 kullanılmıştır. Çalışma sonucunda SMOTE tekniğinin sayısının fazla olduğu setini dengelemede daha başarılı hibrit tekniklere göre etkin olarak kullanılabileceği sonucuna ulaşılmıştır.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Synthetic Data Generation using Benerator Tool

Datasets of different characteristics are needed by the research community for experimental purposes. However, real data may be difficult to obtain due to privacy concerns. Moreover, real data may not meet specific characteristics which are needed to verify new approaches under certain conditions. Given these limitations, the use of synthetic data is a viable alternative to complement the real ...

متن کامل

Quality Estimation for Synthetic Parallel Data Generation

This paper presents a novel approach for parallel data generation using machine translation and quality estimation. Our study focuses on pivot-based machine translation from English to Croatian through Slovene. We generate an English–Croatian version of the Europarl parallel corpus based on the English–Slovene Europarl corpus and the Apertium rule-based translation system for Slovene–Croatian. ...

متن کامل

Declarative generation of synthetic XML data

Synthetic data can be extremely useful in testing and evaluating algorithms, tools and systems. Most synthetic data generators available today are the result of individual benchmarking efforts. Typically, these are complex programs in which the specifications of both the structure and the contents of the data are hard-coded. As a result, it is often difficult to customize these tools for produc...

متن کامل

Scalable , Synthetic , Sensor Network Data Generation

of the Dissertation Scalable, Synthetic, Sensor Network Data Generation

متن کامل

Head Motion Generation with Synthetic Speech: A Data Driven Approach

To have believable head movements for conversational agents (CAs), the natural coupling between speech and head movements needs to be preserved, even when the CA uses synthetic speech. To incorporate the relation between speech head movements, studies have learned these couplings from real recordings, where speech is used to derive head movements. However, relying on recorded speech for every s...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: ?statistik ve Uygulamal? Bilimler Dergisi

سال: 2022

ISSN: ['2718-0999']

DOI: https://doi.org/10.52693/jsas.1105599